深卷积神经网络(CNN)用于图像通过自动挖掘精确的结构信息进行图像。但是,大多数现有的CNN依赖于扩大设计网络的深度以获得更好的降级性能,这可能会导致训练难度。在本文中,我们通过三个阶段(即动态卷积块(DCB),两个级联的小波变换和增强块(网络)和残留块(RB)(RB)(RB)(RB),提出了带有小波变换(MWDCNN)的多阶段图像。 。 DCB使用动态卷积来动态调整几次卷积的参数,以在降级性能和计算成本之间做出权衡。 Web使用信号处理技术(即小波转换)和判别性学习的组合来抑制噪声,以恢复图像Denoising中更详细的信息。为了进一步删除冗余功能,RB用于完善获得的功能,以改善通过改进残留密度架构来重建清洁图像的特征。实验结果表明,在定量和定性分析方面,提出的MWDCNN优于一些流行的非授权方法。代码可在https://github.com/hellloxiaotian/mwdcnn上找到。
translated by 谷歌翻译
常规的多视图聚类试图基于所有观点的假设,以完全观察到所有观点的假设。但是,在诸如疾病诊断,多媒体分析和建议系统之类的实际应用中,常见的是,在许多情况下,并非所有样品的观点都可以使用,这导致常规多视图聚类方法的失败。在此不完整的多视图数据上的聚类称为不完整的多视图聚类。鉴于有前途的应用前景,近年来对不完整的多视图聚类的研究取得了明显的进步。但是,没有调查可以总结当前的进展并指出未来的研究方向。为此,我们回顾了最新的关于多视图聚类的研究。重要的是,我们提供一些框架来统一相应的不完整的多视图聚类方法,并从理论和实验角度对某些代表性方法进行深入的比较分析。最后,为研究人员提供了不完整的多视图聚类领域中的一些开放问题。
translated by 谷歌翻译
利用深度学习的水提取需要精确的像素级标签。然而,在像素级别标记高分辨率遥感图像非常困难。因此,我们研究如何利用点标签来提取水体并提出一种名为邻居特征聚合网络(NFANET)的新方法。与PixelLevel标签相比,Point标签更容易获得,但它们会失去许多信息。在本文中,我们利用了局部水体的相邻像素之间的相似性,并提出了邻居采样器来重塑遥感图像。然后,将采样的图像发送到网络以进行特征聚合。此外,我们使用改进的递归训练算法进一步提高提取精度,使水边界更加自然。此外,我们的方法利用相邻特征而不是全局或本地特征来学习更多代表性。实验结果表明,所提出的NFANET方法不仅优于其他研究的弱监管方法,而且还获得与最先进的结果相似。
translated by 谷歌翻译
We explore the generation of visualisations of audio latent spaces using an audio-to-image generation pipeline. We believe this can help with the interpretability of audio latent spaces. We demonstrate a variety of results on the NSynth dataset. A web demo is available.
translated by 谷歌翻译
最近已被证明扩散模型产生高质量的合成图像,尤其是与指导技术配对,以促进忠诚的多样性。我们探索文本条件图像综合问题的扩散模型,并比较了两种不同的指导策略:剪辑指导和自由分类指导。我们发现后者是人类评估者的优选,用于光敏和标题相似度,并且通常产生光素质拟种样品。使用自由分类指导的35亿参数文本条件扩散模型的样本由人类评估者对来自Dall-E的人的人们青睐,即使后者使用昂贵的剪辑重新划分。此外,我们发现我们的模型可以进行微调,以执行图像修复,从而实现强大的文本驱动的图像编辑。我们在过滤的数据集中培训较小的模型,并在https://github.com/openai/glide-text2im释放代码和权重。
translated by 谷歌翻译
用于音乐的人工智能(AI)的巨大进展,特别是对于音乐作品和访问大型数据库来通过互联网进行商业化。我们有兴趣进一步推进这一领域,专注于构成。与目前的黑盒AI方法相比,我们正在为生成音乐系统支持可解释的组成前景。特别是,我们正在从分布组成分类(Discocat)建模框架中导入方法,用于自然语言处理(NLP),由音乐语法激励。量子计算是一种新生的技术,它很可能及时影响音乐行业。因此,我们正在开创Quantum自然语言处理(QNLP)方法来开发新一代智能音乐系统。这项工作从Quantum Hardware上的孤立语言模型的先前实验实施中。在Quanthoven,曾经构建的第一概念证明,(a)表明可以编程量子计算机来学习对传送不同含义和(b)的音乐来说明这种能力如何可能会利用开发一个系统来组成有意义的音乐。在讨论当前对音乐的理解作为通信介质及其与自然语言的关系之后,本章侧重于开发的技术(a)编码音乐组合物作为量子电路,(b)设计量子分类器。章节以与系统创建的组合物的演示结束。
translated by 谷歌翻译
离散基因监管网络(GRNS)在鲁棒性和模块化的研究中起着至关重要的作用。评估GRNS稳健性的常见方法是测量它们调节一组扰动基因激活图案回到其未受干扰的形式的能力。通常,通过收集通过基因激活模式的预定分布产生的随机样品来获得扰动。这种采样方法引入了随机性,否定动态。这种动态施加在已经复杂的健身景观之上。因此,在使用采样的情况下,重要的是要理解哪种效果来自健身景观的结构,并且从施加的动力学产生。健身功能的随机性也会导致重现性和实验后分析中的困难。通过考虑基因活性模式的完全分布,我们制定确定性分布适应性评估,以避免适应性评估中的随机性。这种健身评估有助于重复性。其确定性允许我们在健身上确定理论界,从而确定算法是否达到了全局最优。它使我们能够将问题域与嘈杂的健身评估的影响区分开来,从而解决〜\ CiteT {espinosa2010Specialization}问题领域的行为中的两个剩余异常。我们还揭示了解决方案GRNS的一些属性,使它们具有稳健和模块化,导致对问题域的性质更深入了解。我们通过讨论潜在的方向来模拟和理解较大,更复杂的域中的模块化的出现,这是产生更有用的模块化解决方案的关键,并理解生物系统中的模块化的难以。
translated by 谷歌翻译
骨架序列轻巧且紧凑,因此是在边缘设备上进行动作识别的理想候选者。最新的基于骨架的动作识别方法从3D关节坐标作为时空提示提取特征,在图神经网络中使用这些表示形式来提高识别性能。一阶和二阶特征(即关节和骨骼表示)的使用导致了很高的精度。但是,许多模型仍然被具有相似运动轨迹的动作所困惑。为了解决这些问题,我们建议以角度编码为现代体系结构的形式融合高阶特征,以稳健地捕获关节和身体部位之间的关系。这种与流行的时空图神经网络的简单融合可在包括NTU60和NTU120在内的两个大型基准中实现新的最新精度,同时使用较少的参数和减少的运行时间。我们的源代码可公开可用:https://github.com/zhenyueqin/angular-skeleton-soding。
translated by 谷歌翻译
Our method performs local semantic editing on GAN output images, transferring the appearance of a specific object part from a reference image to a target image.
translated by 谷歌翻译
Figure 1: A five-fingered humanoid hand trained with reinforcement learning manipulating a block from an initial configuration to a goal configuration using vision for sensing.
translated by 谷歌翻译